Deep learning beszédleiratozás K2/Icefall alapon (Conquering K2/Icefall)
A történelem legsikeresebb beszédfelismerési keretrendszere (software toolkit-je) alighanem a Kaldi volt, melyre többek között az Apple, Intel, Xiaomi diktálója is épült. A siker jelentős részben a Weighted Finite State Transducer (WFST ~ véges állapotú gépek általánosítása) technológia hatékony integrálásának volt köszönhető - ezzel indult a Google is annak idején. Időközben a mélytanulási keretrendszerek - különösen a PyTorch - rendkívül közkedveltté váltak és a korábbi WFST alapú megoldások háttérbe szorultak. Azonban a Kaldi fejlesztőcsapata nemrégiben előrukkolt a k2 rendszerrel (https://github.com/k2-fsa/k2), mely a PyTorch-ra épül és a mély neuronhálókat a WFST-kel "varratmentesen" integrálja. Az Icefall kész, "state of the art" receptúrákat kínál a k2-höz, így az eredmények reprodukálása könnyű. A feladat a k2/Icefall segítségével hatékony magyar és idegennyelvű beszéd-szöveg átalakítás megvalósítása. A téma TDK-ra, diplomára is továbbvihető. A Python ismerete előny, az angol minimum olvasási szinten szükséges.
Kulcsszavak: deep learning, beszédfelismerés, ASR, gépi tanulás, Python, PyTorch
Budapesti Műszaki és Gazdaságtudományi Egyetem (BME) Távközlési és Mesterséges Intelligencia Tanszék (TMIT) 1117, Budapest, Magyar tudósok körútja 2. tel: (1) 463-2448; fax: (1) 463-3107 email: titkarsag@tmit.bme.hu